曾在一則搞笑廣告中看到語音助理與主人的互動,語音助理可以透過主人說話幫忙打蔬果汁和準備餐點,也可以幫忙開啟咖啡機、電視機、收音機,跑步機,然後鬧鐘、生活記事等都無所不能,但因為劇中收音機和跑步機語音互相干擾的關係,導致跑步機速度越來越快,主人摔得四腳朝天,這時鄰居正快意的在戶外慢跑,形成一個強烈的對比。
從上述的廣告案例來說,這並非空穴來風,但其實早期就有類比設定器可以做到,只要時間設定好,又沒有停電的話,所有指定的工作都可以在設定時間內完成,即便沒有語音控制,好像也可以完成,而且完成度很高。既然科技已然和聲控有所連結,必然要有一個全球標準化的語音資料庫的建置來輔助,否則語音差異和辨識出錯是常有的事,就會像一部敖幼祥畫的一部漫畫《烏龍院》劇情,明明大師兄跟士兵傳令說要「地圖」,結果士兵中間傳到變成「壁虎」、「夜壺」等,最後一個士兵跑來脫掉褲子,跟大師兄說:『屁股來了!』
這類的辨識錯誤,在生活中是很常見,雖然最新的AI辨識系統強調可以藉由聲紋和臉部咬合去辨識出性別、年齡、種族,甚至可以從人臉資料庫中調出相關照片,例如Speech2Face的測試,只是仍存在著辨識錯誤的比率。所以必須借助語音學或聲韻學這類的專業,很多人會認為這不重要,甚至老掉牙,但實際去翻閱這些學門的書,你會驚訝到原來這一套理論是有科學依據,絕對不是天馬行空,能夠發聲的部位分成:雙脣、唇齒、舌尖(前、後、中)、舌葉、舌面前、舌根及喉嚨;發出的音有:塞音(清、濁)、塞擦音(清、濁)、鼻(濁)、邊(濁)、擦(清、濁)、半原音,其中塞音、塞擦音的清音、濁音還分送氣與不送氣,好吧!講到這裡,想必一半人以上都頭昏了,只是強調一下,任何的語言都很重視這套基準,來玩個簡單的發音遊戲,把英文「S」和「T」連續發音幾次,就會很有感,才會知道關鍵其實就在你的舌頭,任何的語音辨識系統的建置,大多都忽略到這點,所以AI的語音學習之路還很久遠,至少能練習到不會發生重複說到抓狂,還顯示錯誤動作時,就表示AI語音學習成熟了。